Semantic Miner: Ein integratives Ontologie-basiertes Knowledge Retrieval System
نویسنده
چکیده
Oft stellt sich bei der Analyse von Wissensprozessen in Unternehmen heraus, dass der einfache Zugriff auf das vorhandene Unternehmenswissen in Dokumenten nicht möglich ist. Für den Zugriff auf Dokumentenund Datenbestände des Unternehmens nehmen die Technologien des Information Retrieval (IR) eine zentrale Rolle ein. Im Folgenden beschreiben wir die Theorie des SemnaticMiner-Systems, das heißt Methoden und Technologien sowie weiterführende Ansätze, um mithilfe semantischer Technologien aus dem Information Retrieval ein Knowledge Retrieval (KR) zu erreichen. 1 Einführung in Ontologie-basiertes Wissensmanagement Bereits Aristoteles versuchte in seiner Kategorienlehre, die Dinge der Welt nach bestimmten Kriterien zu untersuchen und zu ordnen. Daraus entstand über Jahrhunderte eine philosophische Subwissenschaft namens Ontologie. Diese vergleichsweise neue Bezeichnung, die sich aus dem Griechischen zusammengesetzt — ”ontos“ für Sein und ”logos“ für Wort [Sow00] — wird benutzt, um die Lehre vom Sein zu unterscheiden von der Lehre des Seienden in den Naturwissenschaften. Die Informatik entlehnte den Begriff der Ontologie zum Zwecke der Repräsentation und Nutzung von Wissen. Seit Anfang der neunziger Jahre wurden Ontologien zu einem beliebten Forschungsthema in Teilgebieten der Künstlichen-Instelligenz-Forschung. In letzter Zeit breitet sich die Idee der Ontologie auf immer mehr Bereiche aus, wie Intelligent Information Integration, Cooperative Information Systems, Information Retrieval, Electronic Commerce und Knowledge Management (für weitere Beispiele sei auf [Sow00] verwiesen). Der Grund für die stetig wachsende Popularität von Ontologien, liegt größtenteils an dem, was sie versprechen: Ein geteiltes und gemeinsames Verstehen einer Domäne, das zwischen Personen und Anwendungssystemen kommuniziert werden kann (vgl. [Fen01]). Bedeutung: Ontologien werden entwickelt um eine maschinen-verarbeitbare Semantik an Informationsressourcen, die zwischen verschiedenen Agenten (Software und Menschen) kommuniziert werden kann, bereitzustellen. Ausführliche Version unter http://www.ontoprise.de/documents/SemanticMinerKR.pdf Definition und Eigenschaften. Die am häufigsten zitierte Definition für Ontologie ist die von Gruber: ”Eine Ontologie ist eine formale, explizite Spezifikation einer gemeinsamen Konzeptualisierung“ [Gru93]. Durch eine explizite Spezifikation der Entitäten (Konzepte), die mit anderen Entitäten über Axiome (Relationen) verknüpft, oder mit Attributen detaillierter beschrieben werden entsteht daraus eine Ontologie. Üblicherweise sind Ontologien in Taxonomien mit mehrfacher Vererbung und disjunkten Unterkategorien organisiert. Neben dieser Kategorisierung beschreiben sie für einen Wissensbereich ebenfalls Regeln, die die Konzepte durch Constraints oder Inferenzregeln in Beziehung setzten. Diese werden typischerweise in logischen Formalismen repräsentiert, die auf der Prädikatenlogik basieren. F-Logic. Für das SemanticMiner-System verwenden wir die Sprache Frame-Logic (FLogic). F-Logic entspricht syntaktisch gesehen einer Obermenge der Prädikatenlogik erster Stufe (FOL, first order logic), wobei die Ausdrucksmächtigkeit beider Sprachen allerdings äquivalent ist. F-Logic ist eine logikund objektorientierte Sprache, die 1995 von Kifer et al. [KLW95] entwickelt wurde. Sie verbindet die Ausdrucksstärke von Normallogik (Horn-Logik mit Negationen) mit den Datenmodellierungsmöglichkeiten des objektorientierten Ansatzes. Da die grundlegenden Prinzipien der Vererbung, Kapselung, Klassenbildung, Polymorphie und Typüberprüfung durch die Ausdrucksstärke und die Inferenzmöglichkeiten von Logik ergänzt werden, ist sie besonders für die Modellierung von Ontologieen geeignet. Das Allwissenden-Paradigma. Mit der Verwendung einer Ontologie akzeptiert man automatisch das ”Allwissenden“-Paradigma, das einem traditionellen Ansatz der Kognition in sozialen Systemen entstammt. Wissen wird dabei in einer einzigen, von allen geteilten kohärenten Struktur repräsentiert und organisiert, völlig unabhängig von wem, wie, wo und warum dieses Wissen ursprünglich geschaffen wurde. Der heute aufstrebende Ansatz der ”Verteilten Intelligenz“ basiert hingegen auf der Annahme, dass Wissen immer und unteilbar mit verschiedenen sogenannten Kontexten verknüpft ist, wie beispielsweise Individuen, Gruppen, Zeiträumen und Orten und daher nicht generell zentral organisiert werden kann: Wissen ist demnach immer kontextspezifisch [NSB00]. Zu erwähnen ist auch, dass sich die spätere Nutzergruppe des angestrebten wissensbasierten Systems auf die Ontologie geeinigt haben muss [Gru95]. Durch diese Formalisierung wird jedoch Mehrdeutigkeit vermieden. Weitere Ansätze existieren um Wissensmodelle aufzubauen. Eine ebenfalls verbreitete Methode ist die Verwendung von TopicMaps für die Einordnung und Kategorisierung von Begriffen. Hierbei werden vorhandene Themen (Topics) miteinander verbunden, ein semantisches Netz entsteht. TopicMaps eignen sich insbesondere zur Navigation vorhandener Begrifflichkeiten. Ontologien stellen zusätzlich zur Navigationsunterstützung mächtigere Modellierungsmöglichkeiten zur Verfügung, welche zusätzliche Funktionen des Wissensmodells ermöglichen [SM01]. Im Gegensatz zu allen anderen Technologien bestehen weitere Zusatznutzen von Ontologien darin, dass sie Ableitungen erlauben und Auswertungen der oben beschriebenen regelbasierten Zusammenhänge mittels einer Inferenzmaschine (z.B. OntoBrokerTM) erlauben. Implizites Wissen wird dadurch ebenfalls abgefragt und dargestellt — explizit gemacht. 2 Information Retrieval Für den Begriff bzw. das Gebiet des Information Retrieval (IR) gibt es keine allgemein akzeptierte Definition oder Abgrenzung. Historisch gesehen wurde IR zum besseren (Wieder)auffinden von wissenschaftlicher Literatur entwickelt. Auch wenn dieses Gebiet nach wie vor einer der Schwerpunkte des IR ist, haben sich sowohl der Bereich der Objekte, mit denen IR umgeht, als auch die Aufgabenstellung erweitert. Eine Beschreibung gibt die Fachgruppe Information Retrieval der Gesellschaft für Informatik [Fuh96]: ”Im Information Retrieval werden Informationssysteme in Bezug auf ihre Rolle im Prozess des Wissenstransfers vom menschlichen Wissensproduzenten zum Informationsnachfragenden betrachtet.“ Ziel des IR ist es also, gespeicherte Daten (Texte, strukturierte Daten, Bilder, Fakten u.a.) so aufzubereiten und anzubieten, dass sie bei einem konkreten Informationsbedarf mit problemgerechten Suchstrategien möglichst präzise und vollständig herausgesucht werden können. 2.1 Qualitätsbewertung von IR-Systemen: Recall und Precision Die am häufigsten verwendeten Maße zur Beurteilung der Güte eines IR-Systems sind Recall und Precision. Durch diese beiden Maße wird die Suche mit einem IR-System aufgrund des gelieferten Retrievalergebnisses bewertet. Grundlage bildet der Begriff der Relevanz eines Dokuments. Eine Reihe von verschiedenen Definitionen des Begriffs Relevanz sind beispilsweise in [Kai93] zu finden. Wir verwenden die Definition Relevanz nach [CLvRC98]: Definition 2.1 (Relevanz) Wenn der Benutzer ein Dokument zu einer haben will, dann ist dieses relevant zu dieser Anfrage. Nun können die beiden Maße Recall und Precision definiert werden [BYRN99]: Definition 2.2 (Recall) Recall stellt das Maß für die Vollständigkeit des Retrievalergebnisses dar und ist definiert als das Verhältnis zwischen gefundenen, relevanten Dokumenten und der Gesamtzahl der im Dokumentenbestand vorhandenen relevanten Dokumente. Genauer gilt: Gegeben sei ein Informationsbedarf I und eine Anfrage q des Benutzers. Dann berechnet sich der Recall durch req(q, I) = |R(q, I)| |R(I)| , (1) wobei |R(I)| die Anzahl aller relevanten Dokumente zum Informationsbedarf I und |R(q, I)| die Anzahl der mit der Anfrage q gefundenen, zum Informationsbedarf I relevanten Dokumente bezeichnet (vgl. Abbildung 1). Der Wertebereich des Recalls geht von 0 bis 1. Ein Recall von 0 wird für das schlechteste Ergebnis, 1 für das bestmögliche vergeben. Definition 2.3 (Precision) Precision dient zum Messen der Genauigkeit des Retrievalergebnisses und als Indikator für die Fähigkeit eines IR-Systems, nicht relevante Dokumente nicht auszugeben. Precision ist definiert als das Verhältnis der gefundenen relevanten Dokumente zur Zahl aller Dokumente. Genauer gilt: Gegeben sei ein Informationsbedarf I und eine Anfrage q des Benutzers. Dann berechnet sich Precision durch pres(q, I) = |R(q, I)|
منابع مشابه
Ontologie-basiertes Monitoring von IT-Systemen
In diese Arbeit wird ein Ontologie-basierter Ansatz zum Monitoring von IT-Systemen vorgestellt. Es wird untersucht, wie die Skalierbarkeit des Reasonings für die IT-Management-Domäne verbessert und zeitbehaftete Daten dargestellt werden können. Zudem wird ein Konzept vorgestellt, mit dem zusätzliche, nicht in der Ontologie darstellbare Semantik als Regelstruktur in der Domänenontologie modellie...
متن کاملEin Ontologie-basiertes Modell für Indexierung und Retrieval
In diesem Beitrag wird ausgehend von einem ungelösten Problem der Informationserschließung ein Modell vorgestellt, das die Methoden und Erfahrungen zur inhaltlichen Dokumenterschließung mittels kognitiv zu interpretierender Dokumentationssprachen mit den Möglichkeiten formaler Wissensrepräsentation verbindet. Die Kernkomponente des Modells besteht aus der Nutzung von Inferenzen entlang der Pfad...
متن کاملOntologie-basiertes Web Mining
Zusammenfassung: Die Erkennung und Extraktion relevanter Daten im Internet wird zunehmend durch den rapiden Zuwachs an Dokumenten erschwert. Bestehende Ansätze, denen aktuelle Suchmaschinen in der Regel folgen, begegnen den anfallenden Datenmengen mit immer neuer Rechenleistung. Diese Vorgehensweise wird sich jedoch nicht beliebig fortsetzen lassen. In dieser Arbeit stellen wir ein fokussiertes...
متن کاملRecherche d'information sémantique : état des lieux
This article focuses on the field of Semantic Information Retrieval (IR), which is at the intersection of several disciplines: Information Retrieval, Knowledge Engineering and Natural Language Processing. We present the basics to understand how a semantic IR system works. We also present a classification of the types of semantic resources used in information retrieval. We detail the role of the...
متن کاملSemantic Web Content Management
Im Rahmen der Semantic Web Initiative des W3C sind in jüngster Vergangenheit die RDF-basierten Standards RDFS und OWL verabschiedet worden, die als Wissensrepräsentationssprachen gemäß dem Ontologie-Paradigma im Web fungieren. Aufbauend auf diesen Technologien wird in dieser Arbeit gezeigt, wie im Zusammenspiel mit einem Ontologie-Editor die Grundlage für ein wissensbasiertes Web Content Manage...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2003